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摘要 
线 的 执行 效率 是 SKA 区 域 中 心 考虑 的 重要 因 


素 . 


中 


化 后 的 代码 在 CSRC-P 的 x86 节点 和 ARM 节点 上 分 别 获 得 了 2.7 和 2.4 倍加 速 . ARM 计算 节点 展现 出 
对 SKA 应 用 良好 的 适应 性 . 本文 的 优化 策略 和 方法 也 适用 于 


Hob En, 


E SKA 区 域 中 心 原型 机 (China SKA Regional Centre prototype, CSRC-P) 上 进行 并 行 处 理 
以 往 的 优化 方案 都 集中 在 少数 性 能 热点 , 缺乏 对 整体 管线 的 系统 优化 , 导致 整体 加 速 比 相对 较 低 . 针对 这 
问题 , 本 文 提出 了 一 种 全 局 优化 方案 , 针对 管线 使 用 多 种 编程 语言 、 
C++ 多 线程 、Python 多 进程 、Shell 多 任务 并 行 等 优化 方法 , 并 验证 了 优化 结果 的 准确 性 . 实验 表明 ， 


rd 


展 计 划 (编号 : 2018YFA0404600, 2018YFA0404603) 资助 项 目 


平方 公里 阵列 (Square Kilometre Array, SKA) 射电 望远镜 的 数据 处 理 是 通过 管线 方式 进行 的 , 管 
i 
多 科学 工作 的 基础 . 本 文 以 SKA 低频 先导 设备 (Murchison Widefield Array, MWA) 


续 谱 成 像 观 测 是 SKA 的 主要 观测 模式 之 一 , 也 是 
的 


* 
成 像 管线 为 例 , 在 
管线 优化 . 


| 


图 像 数 据 可 独立 处 理 的 特点 , 综合 使 


用 
优 


其 他 SKA 科学 应 用 , 对 SKA 先导 望远镜 的 


科学 运行 和 未 来 的 运行 有 帮助 
关键 词 平方 公里 阵列 ,低频 成 像 , 高 性 能 计算 , 并 行 优化 


PACS: 47.27.-i, 47.27.Eq, 47.27.Nz, 47.40.Ki, 47.85.Gj 


1 引言 


为 了 文 持 不 同 的 科学 目标 ， 平 方 公 里 阵列 
(Square Kilometre Array, SKA) 射电 望远镜 天 文 
台 将 以 不 同 的 观测 模式 进行 , 即 成 像 模 式 和 非 成 像 
模式 ， 其中, 连续 谱 成 像 和 谱 线 成 像 是 主要 的 两 种 
成 像 模式 . 在 连续 谱 成 像 中 , 天 空 区 域 可 以 在 很 宽 
的 频率 带宽 上 成 像 . 以 该 模式 进行 的 射电 巡天 (B: 
连续 谱 这 天 ) 观测 是 SKA 实现 星系 演化 、 宇 宙 大 
斥 度 结构 演化 、 宇 宙 磁 场 等 关键 科学 目标 的 重要 前 


提 辣 ,并 将 提供 不 同 的 科学 数据 产品 , 包括 连续 谱 
Aine PRP A), Ae Bee OO) 、 慢 速 瞬 态 搜索 数 


据 四 和 电离 层 测量 是 等 . 


在 过 去 的 几 十 年 中 , 研究 人 员 在 射电 望远镜 上 
进行 了 许多 大 型 的 连续 谱 观 测 , 例如 : 20cm 上 暗 弱 
图 像 射电 这 天 (Faint Images of the Radio Sky at 
Twenty Centimeters survey, FIRST)"; 国家 射电 
天 文 台 甚 大 阵列 巡天 (NRAO VLA Sky Survey, 
NVSS) 19 和 超大 阵列 巡天 (Karl G. Jansky Very 
Large Array Sky Survey, VLASS) !!; 默 奇 森 宽 


视 场 阵 列 (Murchison Wide-field Array, MWA) 的 
银河 系 及 河 外 全 天 巡天 (GaLactic and Extragalac- 
tic All-sky MWA, GLEAM) H3 和 MWA 拓展 
阵 的 银河 系 及 河 外 全 天 这 天 观测 (GaLactic and 
Extragalactic All-Sky MWA-eXtended, GLEAM- 
X; Natasha Hurley-Walker, 2022); 巨 米 波 射电 望 
远 镜 (Giant Metrewave Radio Telescope, GMRT) 
150 MHz TIFR GMRT 巡天 (TIFR GMRT Sky 
Survey, TGSS) !?!; 低频 阵列 (Low Frequency Ar- 
ray, LOFAR) 的 2 m 巡天 (LOFAR Two-metre Sky 
Survey, LoTSS) 4; MeerKAT 国际 GHz 银河 系 外 
巡天 (MeerKAT International GHz Tiered Extra- 
galactic Exploration, MIGHTEE) 观测 05; Wak 
利 亚 平方 公里 阵列 探 路 者 (Australian Square Kilo- 
metre Array Pathfinder, ASKAP) 的 宇宙 演化 图 谱 
巡天 (Evolutionary Map of the Universe, EMU) 6 
Ax. 这 些 大 型 射电 望远镜 观测 极 大 地 促进 了 对 射电 
天 空 的 深入 了 解 , 为 其 他 射电 天 文 观 测 项 目 黄 定 了 
基础 , 促进 了 射电 天 文学 的 鞍 勃 发 展 . 


作为 SKA 先导 望远镜 之 一 , MWA 开展 了 低频 
射电 连续 谱 巡 天 观测 , 即 GLEAM MH. GLEAM 
是 迄今 为 止 低频 射电 波段 的 最 大 规模 观测 之 一 , 覆 
盖 了 赤 纬 +30 deg 以 南 的 整个 南部 天 区 . GLEAM 
的 观测 区 域 和 频率 范围 与 SKA 低频 阵列 高 度 一 
致 , 对 未 来 SKA 科学 研究 和 数据 处 理 有 极 高 的 参 
BRM. RY Mc Wi Be, GLEAM 还 为 广 
泛 的 科学 研究 提供 基础 观测 数据 , 包括 射电 星系 和 
ob BAG), BAR), Bee Ps, WN 
河 发 射 器 ,银河系 的 磁场 CON, dp TRI AA AL TAT A 
谱 线 DU. 脉冲 星 P9) 和 宇宙 射线 ，GLEAM 第 一 年 
(2013 年 8 月 9 日 至 2014 年 6 月 18 日 ) 和 第 二 
年 (2014 年 8 月 4 日 至 2015 年 7 月 6 日 ) 的 观测 
数据 已 经 发 布 . 第 一 年 的 数据 包括 , 在 72-231 MHz 
的 频率 范围 内 , 对 赤 纬 +30 deg 以 南 和 银河 纬度 10 
deg 以 上 的 天 空 区 域 进行 的 观测 , 其 中 不 包含 一 些 
复杂 辐射 的 区 域 , 例如 麦哲伦 云 ， 第 一 年 数据 共 覆 
盖 约 24,800 deg? 的 天 区 , 按 赤 纬 划分 为 7 个 条 带 ， 
每 个 条 带 观测 1 晚 , 循环 完成 , 直至 预定 的 天 区 全 
部 扫描 完毕 ， 经 校准 等 处 理 后 , 第 一 年 所 有 快照 观 
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测 的 可 见 度 (visibility) 数据 总 量 约 为 300 TB. 

为 协助 SKA 数据 处 理 及 相关 科研 成 果 输 出 ， 
上 海天 文 台 推 动 中国 SKA 区 域 中 心 (SRC) 的 筹 
E, 并 完成 了 中 国 SRC 原型 机 (China SKA Re- 
gional Centre prototype, CSRC-P) 26:27] 及 其 软件 
ABM. SKA 区 域 数据 中 心 建成 后 ， 将 以 MWA 
为 基础 ， 同 时 开拓 和 ASKAP、MeerKA0T 和 LO- 
FAR WAVE, 开展 SKA 先导 项 目的 科学 预 研 究 和 
技术 发 展 ， 其 中 包括 低频 射电 脉冲 星 搜 索 研 究 P9), 
以 及 本 文 所 研究 的 低频 射电 连续 谱 巡 天 观测 项 目 . 
目前 , 利用 MWA GLEAM 观测 项 目的 原始 数据 ， 
CSRC-P 已 被 用 于 开展 数据 传输 、 存 储 、 管 线 处 理 
等 关键 技术 的 研究 . 

由 于 SKA 先导 采用 的 大 视 场 、 宽 频带 、 高 分 
辨 率 和 多 波束 技术 , 且 观 测 持续 很 长 时 间 , 海量 观 
测 数据 的 处 理 将 会 是 一 个 巨大 挑战 B. 一 个 典型 的 
观测 任务 完成 后 将 生成 PB 级 的 原始 数据 和 数 百 
TB 级 的 图 像 数据 ， 因 此 , 我 们 使 用 管线 系统 来 自 
动 化 处 理 SKA 和 MWA 的 数据 . 通过 将 流程 分 解 
为 多 个 步骤 , FEA ER BRE A, 管线 可 以 实 
现 并 行 处 理 , 加 快运 行 速度 ， 然 而 , 现 有 的 成 像 管 
线 效 率 低下 , 无 法 充分 利用 超级 计算 机 计算 节点 上 
的 多 核 特性 . 现 有 的 优化 方法 只 针对 几 个 性 能 热点 ， 
缺乏 对 整个 系统 的 优化 , 这 导致 相对 较 低 的 整体 加 
速度 ， 我 们 需要 在 MWA 现 有 管线 的 基础 上 探索 
更 有 效 的 优化 方法 ， 以 便 高 效 地 处 理 未 来 SKA 的 
观测 数据 . 本 文 提出 了 一 种 针对 MWA 成 像 管 线 在 
x86 和 ARM 处 理 器 上 的 全 局 优化 方法 , 主要 贡献 
包括 : 

。 将 成 像 管 线 作 为 整体 分 析 , 综合 采用 C++ 多 
线程 并 行 、Python 多 进程 并 行 和 Shell 多 任务 并 
行 , 进一步 提高 了 原 已 并 行 运行 的 代码 的 运行 效率 ， 
在 x86 Al ARM 平台 上 获得 了 2.7 和 2.4 倍 的 加 速 . 

。 F x86 Al ARM 平台 验证 了 并 行 优化 的 可 行 
性 , 并 验证 了 成 像 结 果 的 准确 性 . 结果 表明 , 本 文 的 
并 行 优化 方法 适用 于 x86 和 ARM 两 种 指令 集 不 同 
的 计算 架构 , 优化 前 后 的 结果 差异 在 实验 允许 范围 
内 , 满足 SKA 数据 分 析 的 精度 要 求 . 

。 从 并 行 效率 入 手 , 分 析 了 管线 并 行 度 与 并 行 效 
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率 的 关系 , 指出 了 下 一 步 的 优化 方向 , 即 单个 MWA 
管线 仍然 无 法 发 挥 现代 多 核 处 理 器 的 能 力 , 需要 增 
加 工作 流 协 调 机 制 , 同时 处 理 多 条 管线 . 

本 文 其 余部 分 安排 如 下 : 第 2 章 将 在 介绍 MWA 
数据 处 理 成 像 管线 的 基础 上 , 寻找 程序 热点 ， 有 和 针 
对 性 地 设计 并 行 优化 方法 .第 3 章 讨论 并 行 优化 效 
果 , 并 对 比 优 化 前 后 的 结果 差异 . 第 4 章 中 介绍 了 本 
领域 的 相关 工作 ， 最 后 ， 第 5 章 概括 了 我 们 的 工作 ， 
并 展望 了 将 来 的 优化 方向 . 


2 管线 并 行 优化 方法 设计 
2.1 ”低频 成 像 管 线 


SKA 成 像 管线 包含 了 对 于 MWA GLEAM 数 
据 处 理 的 全 过 程 上 50， 图 1 展示 了 SKA 低频 
观测 数据 成 像 的 流程 图 ， 它 包含 五 个 阶段 ，@ 预 
处 理 (Pre-processing)，@ 建 模 (Modeling), Bé 
准 (Calibration)，@ 成 像 (Deep imaging)，@ 后 处 
理 (Post-processing)， 在 @ 预 处 理 阶段 , 管线 调用 
Cotter 软件 9 读 入 观测 的 快照 原始 数据 , 搜索 和 
去 除数 据 中 的 射频 干扰 , 同时 在 时 间 和 频率 上 对 可 
见 度 数据 做 平均 化 处 理 , 使 其 时 间 分 辨 率 为 4 s, 频 
率 分 辨 率 为 40 kHz， 最 后 产生 通用 天 文 软件 应 用 
程序 (Common Astronomy Software Applications， 
CASA) 的 Measurement Set(MS) 格式 数据 文件 ， 
并 使 用 Dysco 22 压缩 数据 ， 在 @ 建 模 阶段 , 管线 
比 对 星 表 数 据 库 数据 ， 搜 索 在 数据 预 处 理 阶段 中 
已 经 去 除 射 频 干 扰 的 图 像 的 射电 源 , 制作 出 可 被 校 
EMERE. ORERE, 管线 使 用 
MitchCal 算法 9, 根据 建 模 阶段 得 到 的 天 空 模型 ， 
校准 来 自 预 处 理 阶段 的 数据 . 校准 后 的 数据 将 会 被 
作为 新 的 数据 列 (通常 为 ‘CORRECTED_DATA’ 
列 ) 存储 在 MS 文件 中 .在 @ 成 像 阶段 将 调用 大 视 
场 成 像 与 反 卷 积 软 件 WCSClean 中 的 wsclean 9?! 
命令 对 校准 后 的 数据 进行 深度 成 像 并 获得 快照 图 
像 ， 主要 参数 见 表 1. 在 @ 后 处 理 阶 段 ,管线 运行 
fits warp 脚本 99, 对 斯 托 克 斯 Stokes XX 和 YY 
子 带 图 像 以 及 Stokes I 子 带 图 像 进 行 流量 密度 标 度 
和 天 体 测量 修正 . 最 后 在 快照 图 像 上 运行 射电 源 搜 
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索 程 序 Aegean 9l 将 得 到 的 源 清单 与 GCLEAM 第 
1 年 公开 的 星 表 比 对 源 的 流量 密度 , 得 到 每 个 快照 
图 像 的 流量 密度 标 度 校正 系数 . 在 天 体 测量 校正 中 ， 
校正 步 又 是 通过 对 Stokes I 30.72 MHz 子 带 图 像 中 
测 得 的 源 位 置 偏 移 进行 径 向 基 函 数 拟 合 , 在 图 像 平 
面 上 比 对 MRC B7 和 NVSS 99! 星 表 以 确定 参考 源 
的 位 置 并 进行 最 终 的 位 置 修正 . 


X 1 成 像 阶段 使 用 的 参数 


Table 1 Deep imaging parameters 


参数 取 值 

输出 图 像 像 素 大 小 4000x4000 

最 大 洁 化 迭代 次 数 30, 0000 

迭代 阔 值 c 

AREE 30 

洁 化 操作 增益 值 0.85 

像素 分 辨 率 23.43 arcsec 

权重 模式 briggs (“robust” = —1.0) 

扁 振 参数 计算 4 个 偏振 方向 : XX, YY, 
XY, YX 

频率 通道 参数 分 成 4 个 子 通道 进行 频率 综 
合 

2.2 ”管线 热点 分 析 


我 们 将 SKA 成 像 管 线 视 为 一 个 整体 , 剖析 了 
运行 过 程 中 的 热点 子 函 数 , 根据 其 “ 串 行 时 间 占 比 ”， 
由 阿 姆 达 尔 定律 估算 了 当前 并 行 效率 和 并 行 优化 漆 
J, 选择 运行 时 间 长 、 与 理论 并 行 效率 差距 大 的 函 
数 进行 优化 ， 应 用 程序 在 多 机 多 核 计算 集群 上 , 可 
以 利用 任务 的 独立 性 , 使 用 不 同 的 处 理 需 核心 并 行 
处 理 任务 , 从 而 缩短 整体 运行 时 间 . 根据 编写 函数 
所 用 的 计算 机 语言 , 适用 于 SKA 管线 并 行 优化 的 
并 行 编程 方法 包括 : C/C++ 二 多 线程 并 行 、Python 
多 进程 并 行 和 Shell 多 任务 并 行 . 我 们 将 根据 热点 
函数 的 特性 选择 优化 方法 . 

成 像 管 线 在 x86 和 ARM 平台 上 的 函数 热点 
如 图 2 和 图 3 所 示 , fits_warp、wsclean、 shell_loops 
和 calibrate 是 管线 的 函数 热点 , 分 析 如 下 . 

fits warp 是 一 个 在 人 @ 后 处 理 阶 段 用 于 校正 图 
像 的 Python 函数 . 由 于 fits warp 的 多 个 输入 图 
像 可 以 被 独立 处 理 , 且 当 前 并 行 效率 远 低 于 理论 值 ， 
可 采用 Python 多 进程 方法 优化 . 

wsclean 是 一 个 在 @ 成 像 和 人 @ 后 处 理 阶 段 用 于 
成 像 的 C++ 程序 . 当前 的 并 行 效率 低 于 理论 效率 ， 
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Post-processing 
imaging 


图 1 低频 阵列 的 快照 成 像 管线 的 流程 图 . 


Figure 1 The snapshot imaging pipeline for low frequency array. 


具有 较 好 的 C++ 多 线程 优化 潜力 . 


cotter 


Shell loops 


wsclean 


calibrate 


fits warp 


2 成 像 管 线 在 x86 节点 上 的 热点 


Figure 2 Hotspots of the imaging pipeline on a x86 compute 


node 
cotter Shell loops 
wsclean 
fits warp 
calibrate 
Others 
3 成 像 管线 在 arm 节点 上 的 热点 


Figure 3 Hotspots of the imaging pipeline on a ARM node 


calibrate 在 @ 建 模 、@ 校 准 和 @ 成 像 阶 段 被 调 
JH. 用 于 宽 场 干涉 快速 成 像 . 其 运行 情况 如 表 2 所 
m, 目前 的 并 行 效率 为 72.596, 较为 接近 理论 并 行 
效率 81.376, 故 不 继续 优化 calibrate. 

shell loops 是 成 像 管线 中 的 多 层 循环 操作 , 对 
不 同 天 区 的 大 量 图 像 重复 相似 的 处 理 流程 . 原 有 


Shell 代码 串 行 执行 , 未 发 挥 计 算 机 的 多 核能 力 能 
力 , 并 行 效率 低 , 可 使 用 Shell 多 进程 优化 , 从 而 并 
行 处 理 独立 的 图 像 来 提高 整体 性 能 . 如 表 2 所 示 , AX 
于 fits. warp. wsclean 和 shell. loops 的 详细 优化 
将 在 下 面 的 小 节 中 介绍 . 


Input 
original 
images and 
parameters 


Make pix 
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fits warp 


CloughTocher2 
i DInterpolator 
Write the new 
image 


Correct 
images 
Output new 
images 


4 fits warp 执行 流程 及 热点 


2.3 ”通过 python 多 进程 优化 fits. warp 


fits warp 的 执行 流程 及 热点 如 图 4 所 示 . 
HH, correct images 子 函 数 是 最 耗 时 的 部 分 ， 
该 函数 使 用 make pix model 生成 的 校准 模 
型 来 校准 每 幅 图 像 ， 而 在 correct images 中 ， 
CloughTocher2DInterpolatorw 占 了 主要 的 运行 时 
H. 我 们 发 现 ， 该 函数 中 竺 处 理 的 图 像 之 间 没 有 
依赖 关系 ， 可 以 在 不 同 的 进程 中 并 行 处 理 . 使 用 
Python multiprocessing 改写 后 的 代码 如 下 所 示 , 每 
个 图 像 会 在 一 个 独立 的 进程 中 被 校准 , 由 于 每 个 进 
程 会 分 配 一 个 独立 的 CPU 核心 , 从 而 发 挥 多 核 节 
点 的 并 行 处 理 能 


代码 1 使 用 Python 多 进程 并 行 处 理 图 像 


def correct. images(fnames,  dxmodel, 


dymodel, suffix): 
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表 2 针对 热点 函数 的 并 行 优化 策略 


Table 2 Optimization methods against hotspot functions 


热点 函数 调用 阶段 ”当前 耗 时 ”当前 并 行 效 率 ” 理论 并 行 效率 优化 策略 
fits warp eo 2917s 8.3% 85.1% Python 多 进程 
wsclean oo 1609s 12.796 65.596 C++ 多 线程 和 参数 搜索 
shell loops eo 1103s - - Shell 多 进程 
caliberate eeo 485s 72.596 81.396 不 做 进一步 优化 


for fname in fnames: 
multiprocessing.Process(target— 
parallel func, args=[fname, x, 


y, xy, suffix]).start() 


def parallel func(fname, x, y, xy, suffix) 


fout = fname.replace(".fits", " ?十 
suffix" .fits") 
im — fits.open(fname) 


data = np.squeeze(im [0]. data) 


return 


2.4 通过 C++ 多 线程 优化 wsclean 


wsclean 在 @ 建 模 、@ 校 准 和 @ 成 像 阶 段 被 多 次 
WH. E wsclean 函数 可 以 缩短 这 三 个 阶段 的 
运行 时 间 ， 我 们 对 wsclean 进行 了 C++ 多 线程 优 
化 和 参数 优化 ， 这 些 方法 略微 改变 了 原始 wsclean 
代码 中 的 算法 , 因此 我 们 在 第 3.4 节 中 验证 了 优化 代 
码 的 正确 性 . 我 们 的 代码 使 用 的 是 wgridder 模式 . 
我 们 在 源 文件 wsclean.cpp 和 wsmsgridder.cpp 中 ， 
对 热点 子 函 数 runIndependentGroup 进行 C++ 
多 线程 优化 . 在 ”wsclean.cpp 中 ， [EE f£ PR 
数 griddingTaskManager->Finish() 被 移 到 了 上 层 
循环 , 使 得 多 个 predict() 任 务 的 执行 不 需要 等 待 上 
一 任务 的 完成 ， 在 wsmsgridder.cpp 中 , 我 们 用 每 个 
线程 的 写 入 函数 取代 了 聚合 函数 .每 个 工作 线程 
(predictCalcThread) 都 会 并 行 地 写 到 它 的 目标 内 存 
Kik, 从 而 提高 整体 的 吞吐 量 ， 同 时 , 我 们 将 超 参 
数 优 化 应 用 于 两 个 wsclean 参数 --parallel-gridding 
和 --parallel-deconvolution. 前 者 控制 imageMain 
和 Predict 子 函 数 中 的 线程 数量 ,后 者 控制 子 图 像 
的 大 小 , 影响 整体 工作 量 和 源 匹 配 的 准确 性 我们 


分 别 在 x86 和 ARM 节点 上 搜索 这 两 个 参数 的 最 
佳 组 合 . 


2.5 “通过 数据 并 行 优 化 shell. loops 


MWA 成 像 管线 由 Bash 脚本 语言 组 织 执行 . 
在 @ 成 像 和 @ 后 处 理 图 像 中 的 四 个 循环 显示 了 数据 
并 行 优化 的 潜力 . 这 四 个 循环 分 别 记 为 Ll-img,， 
L2-img, Ll-cor 和 L2-cor， 分 散 于 image.sh 和 
snapshot correct.sh K% F. REH GNU 
Parallel 55 工具 改写 原先 串 行 执行 的 Bash 脚本 ， 
使 其 使 用 多 进程 并 行 处 理 多 个 独立 的 任务 . 为 了 使 
任务 负载 与 节点 的 CPU 核心 数 相 匹 配 , 我 们 尝试 
进行 搜索 , 以 获得 GNU Parallel 工作 进程 数 和 调用 
程序 线程 数 的 最 优 组 合 . 
具体 地 说 , Ll-img 在 子 通道 、 图 像 及 偏振 方向 
上 进行 迭代 , 调用 了 子 函 数 make__beam, pbcorrect 
and render 来 生成 偏振 图 像 . 由 于 任务 之 间 没 有 数 
据 依 赖 性 , 我 们 先生 成 一 个 任务 列表 , 然后 并 行 执 
行 . 优化 后 的 代码 如 代码 2 所 示 , 使 用 了 与 CPU 核 
数 相 等 的 工作 进程 数 (NCPU). 


代码 2 Ll-img 中 的 Shell 多 进程 优化 


# Generate a job list for Ll-img 
for subchan in MFS 0000 0001 0002 0003; do 
for image in $images; do 
for pol in XXr XXi XYr XYi YXr YXi YYr 
YYi; do 
echo "$subchan-$img-$pol" >> jobs. 
txt 
# Run jobs in parallel 
cat jobs.txt | parallel -j $NCPU make beam 
cat jobs.txt | parallel -j $NCPU pbcorrect 
cat jobs.txt | parallel -j $NCPU render 


L2-imgfE f fe 7; pd. KA T 83d E 3 
代 ， 调用 子 函 数 rms measure, pyhead 和 
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copy metafitsheader 来 记录 和 重 命名 图 像 . 与 
Ll-img 类 似 , 我 们 展开 这 个 3 层 循环 ,使 其 并 行 
运行 ,并 启动 NCPU 工作 进程 来 并 行 处 理 独 立 数 
据 , 在 此 省 略 代码 示例 . 

L1-corikf& make beam 和 mv, 对 图 像 进 行 流 
密度 校正 . 我 们 展开 这 个 2 层 循环 , 然后 启动 8 个 
(4x2) 工作 进程 来 并 行 处 理 . 


代码 3 Li-cor 中 的 Shell 多 进程 优化 


# Generate a job list for Ll-cor 
for ((i-1; i<=(4); i++ )); do 
for pol in XX YY; do 
echo "$i-$pol" >> jobs.txt 
# Run jobs in parallel 


cat jobs.txt | parallel -j 8 make beam 
cat jobs.txt | parallel -j 8 mv 

L2-cor j3X f&( agean, BANE, pyhead 和 
correct. gleam flux 函数 ,通过 将 图 像 中 检测 到 
的 源 与 GLEAM IDR6 目录 交叉 匹配 来 校正 快照 图 
像 的 流量 比例 . 子 函 数 BANE 和 aegean 已 经 是 多 
线程 的 了 , 为 了 配合 CPU 核心 的 总 数 , 其 使 用 了 较 
少 的 进程 数 . 伪 代 码 如 下 所 示 . 


代码 4 Multiprocessing in ‘L2-cor’ 
Pp g 


# Generate a job list for L2-cor 
for ((i-1; i<=(4); i++ )); do 
for file in ${Xcorr[$i]} ${Ycorr[$i]}; 
do 
echo "$i-$fil" >> jobs.txt 
# Run jobs in parallel 
cat jobs.txt parallel -j $(NCPU/NBANE) 
-- cores=$NBANE 
cat jobs. txt parallel -j $(NCPU/NAEGENE) 
aegene --cores-$NAEGENE 
parallel -j $NCPU pyhead 
parallel -j $NCPU 


correct gleam flux 


我 们 在 管线 上 采用 的 优化 策略 汇总 在 表 2 中 . 
对 于 fits warp 我 们 使 用 了 Python 多 进程 方法 ; 
对 于 wsclean 我 们 应 用 了 C++ 多 线程 优化 和 参数 
搜索 优化 方法 ; 对 于 image.sh 和 snapshot cotter.sh 
内 的 shell loops, 我 们 使 用 了 Shell 多 进程 优化 方 
ik: 我 们 没有 额外 优化 caliberate 函数 . 


cat jobs.txt 


cat jobs.txt 
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3 结果 与 讨论 


我 们 运行 相同 的 算 例 , 从 “加 速 比 ”和 “并 行 间 
率 ” 来 评估 管线 优化 结果 , 并 对 比 了 x86 和 ARM 
平台 的 效果 优化 . 其 中 “加 速 比 ”定义 为 优化 前 与 
优化 后 运行 时 间 的 比值 , 用 来 表示 相对 原 程序 的 加 
速效 果 , 计算 公式 如 下 : 


t 
Speedup z before opt 


fa fter. opt 


“并 行 效率 ”是 程序 使 用 单 核 心 运行 的 时 间 与 优化 
后 运行 时 间 的 比值 , 再 除 以 分 配 的 核心 数 , 用 来 表 
示 程 序 使 用 多 核心 资源 的 效率 , 上 限 为 100%, 计算 
公式 如 下 : 


ParallelEfficiency = 

实验 是 在 中 国 SKA 区 域 中 心 原型 机 
(CSRC-P)?9 上 完成 的 ， 其 单 节 点 的 软 硬 件 配置 
如 表 3 所 示 , 计算 节点 分 别 使 用 了 x86 和 ARM 指 
令 集 架构 的 处 理 器 . 

输入 数据 来 自 GLEAM 人 快照 数据 ， 观 测 ID 
为 1060179576, 观测 时 间 为 UTC 时 间 2013-08-10 
14:19:18 至 2013-08-10 14:21:10, 观测 相位 中 心 在 
(RA=290.51°, DEC=-26.73°). 


3500 
297, BER mp (p); 3189 


452 
i Ez E 

x86 ARM 
硬件 架构 


图 6 fits warp 在 x86 fl ARM 上 的 优化 效果 
Figure 6 Parallel performance of fits warp on x86 and ARM 
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表 3 软 硬 件 配置 


Table 3 Software and hardware configuration 


指令 集 CPU 内 存 操作 系统 内 核 版 本 ”软件 环境 
x86 Intel Xeon Gold 6132 (28cores 2.60GHz) x 2 6-Channel DDR4-2666 CentOS 7 3.10.0 Python:2.7 gcc:8.3 wsclean:2.7 


ARM Kunpeng 920 CPU (48cores 2.50GHz) x 2 8-Channel DDR4-3200 CentOS 7 4.14.0 Python:2.7 gcc:8.3 wsclean:2.7 
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7 wsclean 在 x86 和 ARM 平台 上 的 优化 效果 


Figure 7 Parallel performance of wsclean on x86 and ARM 


3.1 fits warp 优化 结果 


如 图 69r, fits warp 的 运行 时 间 在 优化 后 
Kis FM, 在 x86 和 ARM 平台 上 分 别 获得 7.66 和 
7.10 的 加 速 比 . 受 限 于 每 个 批 次 fits. warp 处 理 的 
文件 数 , 我 们 启动 12 个 Python 进程 并 行 校准 , 得 
出 的 并 行 效率 分 别 为 他 = 63.8% 和 H = 58.8%, 
接近 于 理论 上 的 并 行 效率 的 表 2. 

x86 和 ARM 平台 上 单个 节点 的 CPU 核心 总 
数 都 较 大 , 分 别 是 28 和 96. 管线 出 于 精度 考虑 设置 
的 每 批 次 文件 数 (12), 制约 了 并 行 资源 利用 率 的 进 
一 步 提 升 ， 未 来 的 优化 方向 是 在 作业 协调 系统 ,如 
DALiuGE P9, 的 协助 下 , 在 一 个 计算 节点 上 启动 多 
条 成 像 管线 , 并 行 运行 多 个 数据 集 管线 . 


3.2 wsclean 优化 结果 


wsclean 会 根据 调用 它 的 阶段 (@ 校 准 或 @ 成 像 
执行 不 同 的 子 函 数 . 我 们 在 这 两 个 阶段 尝试 不 同 
的 wsclean BRAG, 寻找 最 佳 的 参数 .在 优化 之 
前 ，-j 参数 被 设置 为 CPU 核心 的 数量 (24)， 优 
化 后 , 在 @ 校 准 阶段 中 把 -j 参数 设置 为 7, 并 启动 
4 个 进程 ， 在 @ 成 像 阶 段 中 ，-j 被 设置 为 24, 并 
启动 了 4 个 进程 .参数 变化 和 C++ 多 线程 优化 


的 结合 使 得 程序 在 x86 和 ARM 平台 上 运行 时 间 
的 下 降 , 其 效果 显示 在 图 7 中 . 原 有 的 wsclean B 
经 是 并 行 运行 的 , 我 们 使 用 这 个 版 本 的 运行 时 间作 
为 计算 加 速 比 的 基线 ， 在 @ 校 准 阶段 ，wsclean 在 
x86 和 ARM 平台 上 分 别 实现 了 1.5 和 1.6 的 加 
TREK. FE@R AGEL, wsclean 在 x86 和 ARM 平 
台 上 分 别 获得 了 4.2 和 5.0 的 加 速 比 , 展现 了 不 错 
的 性 能 提升 .分 析 表 明 ，@ 校 准 阶段 调用 的 子 函数 
runFirstInversion 的 运行 时 间 占 主导 地 位 ， 该 函数 
"Brie t8 LC PB iy (7096-8076), 根据 阿 姆 达尔 定 
律 , 预期 能 达到 的 加 速 比 较 低 . 相对 地 , @ 成 像 阶段 
中 的 热点 子 函数 predict 和 imageMain 有 很 大 一 部 
分 是 可 并 行 的 , 根据 阿 姆 达 尔 定律 ,这 两 个 子 函 数 
获得 了 较 高 的 加 速 比 . 优化 后 , wsclean 在 这 个 阶段 
实现 了 53.496 和 43.196 的 并 行 效率 , 低 于 表 2 中 的 
理论 并 行 效率 65.5%. 进一步 分 析 发 现 , imageMain 
进行 并 行 写 优化 之 后 , 内存 带宽 成 为 钵 贷 ， 这 类 访 
存 密集 应 用 的 优化 仍然 是 难点 , 未 来 可 考虑 重新 设 
计算 法 , 减少 每 次 算术 操作 的 访 存 次 数 . 


1200 一 - 
目 X86 优 化 前 加 x86 优 化 后 Hos 
a fpa " — 1017 
1000 B ARMÍLCAE BiU 时 ARM 优 化 后 
800 
a 
+= 600 
ate 
x2 
399 
400 352 a ay 
255) 575 5 
pes 191 
200 127 
10 
74081 l^ 49 T | 
o Sele Nom; Sils min 
Ll-img L2-img Ll-cor L2-cor All 


图 8 image.sh 和 snapshot_correct.sh 中 四 个 循环 的 多 进 
程 结果 .All 表示 四 个 优化 循环 运行 时 间 的 总 和 . 


Figure8 Multiprocess results for the four loops in image.sh and 


snapshot correct.sh? All’ represents the sum of the run times of 
the four optimization loops. 
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3.8 shell loops 优化 结果 


如 图 8 所 示 , 在 对 image.sh 和 snapshot. correct.sh 


进行 Shell 多 进程 优化 后 , 运行 时 间 大 大 减少 . 这 种 
优化 方法 在 x86 和 ARM 平台 上 都 适用 . 

在 加 速 比方 面 , L2-img 获得 了 最 高 加 速 比 , 在 
x86 和 ARM 平台 上 分 别 得 到 了 12.3 和 24.7 的 
加 速 比 . 其 他 循环 的 加 速 比 如 下 : Ll-img 分 别 获得 
了 4.8 和 5.0 的 加 速 比 ; Ll-cor 分 别 获得 了 3.5 和 
6.6 的 加 速 比 ; L2-cor 分 别 获得 了 3.7 和 3.8 的 加 速 
比 ; 整体 上 , 我 们 在 x86 和 ARM 平台 上 分 别 获得 
T 48 -426 和 7 = 5.80 的 加 速 比 . 

在 并 行 效率 方面 , Ll-img 的 并 行 效率 接近 2 = 
100%; L2-img 在 x86 和 ARM 平台 上 的 并 行 效率 
Ay i = 52.1% 和 #1 = 25.8%; Ll-cor 在 x86 
和 ARM 平台 上 的 并 行 效率 分 别 为 F = 43.8% 和 
$35 = 81.995. L2-corft x86 和 ARM 平台 上 的 并 
行 效率 分 别 为 AP = 92% 和 335 = 96%. 我 们 在 运 
行 时 间 、 加 速 比 和 并 行 效率 方面 对 x86 和 ARM 平 
台 进 行 了 比较 . 由 于 有 更 多 的 CPU 内 核 , ARM 在 
所 有 循环 的 运行 时 间 和 加 速 比方 面 均 优 于 x86 F 
台 . 只 有 L2-image 使 用 了 所 有 24 和 96 个 CPU 内 
核 , 其 他 三 个 循环 没有 表现 出 足够 的 并 行 性 ， 相 较 
于 ARM 在 CPU 核心 数 上 的 优势 (3$ = 4.0), 循环 
代码 中 相对 较 低 的 并 行 性 制约 了 ARM, 使 其 在 运 
行 时 间 上 相 比 x86 仅 获得 较 小 的 优势 (22 = 1.4). 
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图 9 成 像 管线 整体 优化 结果 


Figure 9 Overall optimization results of the imaging pipeline 


整个 MWA 成 像 管线 的 优化 结果 总 结 
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在 图 9 中 .管线 的 运行 时 间 在 x86 上 从 7479 fb 
降 至 2759 秒 , 在 ARM 上 从 9666 秒 降 至 4016 fb, 
分 别 获得 了 2.7 和 2.4 的 加 速 比 . 在 五 个 阶段 当中 ， 
@ 校 准 阶段 的 运行 时 间 在 优化 后 降低 了 5%. @ 成 像 
和 人 @ 数 据 后 处 理 阶段 的 运行 时 间 大 大 下 降 了 ,因为 
wsclean 和 shell. loops 主要 在 这 两 个 阶段 执行 . 


3.4 ”验证 成 像 结 果 


由 于 成 像 管 线 侧重 于 连续 谱 科 学 研究 , 在 这 一 
节 中 我 们 主要 比较 和 分 析 总 强度 (Stokes T) 图 像 结 
TR. 我 们 使 用 了 射电 源 查找 工具 aegean, 从 原始 和 
优化 后 的 成 像 管线 获得 的 图 像 上 进行 源 搜寻 并 生成 
这 些 图 像 的 射电 源 星 表 结果 . 这 些 图 像 中 搜寻 到 的 
射电 源 如 表 4 所 示 . 在 表 4 中 , 我 们 使 用 Topcar |°! 
工具 将 所 有 星 表 结果 与 x86 上 运行 的 原始 成 像 管 
线 获 得 的 图 像 的 星 表 进 行 交 叉 匹 配 ,， 人 允许 的 最 大 误 
差 设 为 100 arcsec. 

从 表 4 可 以 看 出 ， 原 始 的 管线 在 两 种 处 理 
器 上 的 结果 大 致 相同 ， 只 有 近 0.7% 的 差异 . 优 
化 后 的 管线 获得 的 结果 与 原始 管线 获得 的 结果 
的 匹配 度 分 别 为 97.696 和 97.396. 造成 优化 前 
后 差异 的 原因 是 ， 优 化 后 的 管线 使 用 了 并 行 反 
卷 积 (-parallel-deconvolution 512) 和 并 行 网 格 
化 (-parallel-gridding 8). 在 并 行 反 卷 积 中 , 使 用 
Dijkstra 算法 将 原始 图 像 分 割 成 许多 最 大 尺寸 为 
512 的 子 图 像 , 该 算法 计算 出 子 图 像 的 最 小 分 割 路 
径 , 并 以 所 需 的 分 割 路 径 为 界 ， 最 小 的 分 割 路 径 在 
每 次 主 循环 的 反 卷 积 迭 代 之 前 都 要 重新 确定 UU. 
在 并 行 网 格 化 中 , 原始 网 格 被 分 割 成 8 个 子 网 格 
并 同时 执行 网 格 化 . 这 两 种 并 行 方法 的 使 用 , 将 使 
得 合并 后 的 图 像 在 子 图 像 或 子 网 格 的 临界 位 置 出 
现 轻微 的 混 革 效应 , 但 这 种 影响 被 认为 是 可 以 忽略 
的 42. 

优化 后 的 成 像 管线 获得 的 峰值 流量 密度 和 位 置 
的 准确 性 对 比分 析 如 图 10 所 示 . 图 中 , 峰值 流量 的 
比值 xs6_opt/S x86_orig Il S ARM. opt/ S 386. orig 的 分 布 
都 集中 在 1.0 左右 , 说 明 优化 后 的 流量 密度 与 原始 
流量 密度 基本 相等 .x86 和 ARM 数据 上 的 赤 经 位 置 
差 值 Ar 的 分 布 集中 在 -0.1 左右 , x86 和 ARM 数 


013002-8 


据 上 的 赤 纬 位 置 差 值 Apgc 的 分 布 集中 在 0.0 左右 ， 
表明 优化 后 获得 的 位 置 与 原来 的 基本 相同 . 这 说 明 
优化 后 的 成 像 管 线 得 到 的 结果 是 正确 的 , 优化 方法 
是 有 效 的 . 
KA 成 像 结果 对 比 


Table 4 Comparison of imaging results 


平台 软件 版 本 检测 数 匹配 数 

x86 原始 版 本 1,075 ,075 

ARM 原始 版 本 1,075 ,068 

x86 优化 版 本 1,077 ,049 

ARM 优化 版 本 1,073 ,046 
4 ”相关 工作 


随 着 SKA 数据 处 理 技术 的 发 展 ， 天 文学 和 高 
性 能 计算 领域 久生 的 联系 日 趋 紧 密 。 天 文学 应 
用 的 特点 是 数据 规模 大 , JETT BET MOP), SKA 5g 
成 一 次 巡天 会 产生 海量 的 原始 和 图 像 数据 , 分 别 在 
PB 和 TB 量 级 . 天 文学 应 用 目前 面临 着 计算 资源 
消耗 大 、 对 计算 资源 依赖 强 的 挑战 ， 因 此 , 天文 数 
据 处 理 流程 的 性 能 优化 研究 得 到 了 广泛 的 关注 . 近 
年 来 , 研究 人 员 在 CPU, GPU, FPGA 等 不 同 计算 
装置 上 对 SKA 先导 应 用 设计 了 多 种 性 能 优化 策略 . 

ARL 算法 参考 库 是 SKA 天 文学 数据 处 理 领 域 
的 一 个 重要 算法 库 , 其 中 的 关键 算法 CLEAN 用 于 
巡天 观测 中 针对 探测 到 的 快照 的 成 像 工作 .9 将 
原始 算法 移植 到 GPU 上 , 进行 了 并 行 加 速 , 并 利用 
M31 模拟 数据 对 算法 进行 了 分 析 与 测试 . 在 不 影响 
图 像 质 量 的 前 提 下 , 该 优化 使 算法 的 运行 耗 时 更 短 ， 
计算 效率 更 高 . 

51 使 用 SKA 观测 数据 研究 了 天 文学 数据 处 
理 中 的 两 个 关键 算法 : gridding 算法 和 degridding 
算法 . 作者 采用 网 格 数据 分 块 的 方法 ， 通 过 循环 
展开 、 设 置 管线 , 以 及 重新 定制 核心 运算 模块 和 存 
储 器 控制 模块 , 对 算法 实现 了 低 功 耗 、 高 并 行 度 的 
FPGA 优化 设计 . 

同时 , 随 着 计算 规模 的 扩大 , 计算 节点 之 间 的 


PEN, KR K, Morte, 安 涛 , 劳保 强 . 


数据 通信 开销 也 必须 纳入 考虑 .、[54 基于 已 有 的 有 
向 无 环 图 任务 集 表示 , 重点 关注 节点 之 间 的 海量 通 
A, AWA RY. 作者 改进 了 现 有 的 轮 询 方 
法 , 将 通信 事件 按 成 本 划分 为 高 低 两 种 ,并 针对 二 
者 设计 了 路 径 修 正方 案 和 边缘 通信 路 径 算法 , 从 而 
减少 了 观测 数据 处 理 系 统 的 整体 执行 时 间 . 

此 外 ,低频 射电 脉冲 星 搜索 也 是 SKA 的 热点 
先导 应 用 之 一 基于 FAST lec, 53 针对 不 
同 种 类 的 脉冲 星 的 运动 特点 进行 了 天 空 建 模 、 天 文 
数据 处 理 以 及 红 移 效应 的 修正 , 优化 了 脉冲 星 双 星 
系统 的 搜索 算法 的 性 能 以 及 并 行 时 负载 不 平衡 的 问 
题 ，[5 针对 PRESTO 软件 套件 , 在 CPU 上 对 消 
色散 和 离散 快速 信里 叶 变 换 这 两 个 子 流程 做 了 进程 
级 并 行 , 取得 了 显著 的 加 速效 果 . 


5 总 结 

本 文 在 中 国 SKA 区 域 中 心 原型 机 上 ， 对 
MWA. 低频 成 像 应 用 进行 了 并 行 性 能 优化 .通过 
热点 削 析 ， 发 现 了 应 用 整体 流程 的 性 能 热点 在 于 
fits. warp.py. wsclean, calibrate 和 shell. loops PR 
Tk. 其 中 , calibrate 在 原 有 的 并 行 方法 下 已 经 取得 
了 较 高 的 并 行 效率 ， 因 此 没有 做 进一步 优化 对 
于 shell loops 和 fits_warp.py,， 本 文 主要 使 用 了 
Python multiprocessing 进行 了 多 进程 的 并 行 , 取 
得 了 很 高 的 并 行 加 速 比 ， 对 于 wsclean, 本 文 优化 
其 C++ 多 线程 并 行 算法 ， 验 证 了 算 潜 精度 能 满足 
SKA 使 用 要 求 . 本 文 的 优化 方法 被 证 明 在 x86 和 
ARM 平台 上 都 有 很 好 的 并 行 效果 , 相 比 原先 使 用 
的 版 本 , 分 别 实现 了 2.7 和 2.4 倍 整体 加 速 . 同时 ， 
本 文 的 并 行 优化 方案 具有 良好 的 扩展 性 , 对 未 来 其 
他 天 文学 应 用 的 优化 有 很 好 的 借鉴 意义 .天 文学 应 
用 往往 有 较 好 的 并 行 性 和 庞大 的 数据 量 , 在 未 来 的 
合理 地 将 计算 量 分 配 到 计算 节点 , 挖掘 不 同 并 行 方 
法 , 可 以 更 好 地 提升 数据 的 处 理 效率 . 


致谢 “本 研究 得 到 了 国家 重点 研发 计划 (2018YFA040600, 2018YFA040603) 资助 . 本 研究 使 用 了 由 国家 重点 研发 计划 大 


科学 装置 前 沿 研究 专项 (2018YFA0404603) 和 中 国 


心 原型 机 的 资源 . 


科学 院 (114231KYSB20170003) 资助 研制 的 中 国 SKA 区 域 中 
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图 10 交叉 匹配 源 的 统计 分 析 结 果 . 图 (a) 和 (b) 分 别 是 优化 后 管线 在 x86 和 ARM 上 运行 获得 的 峰值 流量 密度 与 原始 管 
线 在 x86 上 获得 的 比值 分 布 图 .(a) 中 的 拟 合 结果 : 平均 值 为 1.0, 振幅 为 116.9, 标准 差 为 0.02; (b) 中 的 拟 合 结果 : 平均 值 
为 1.0, 振幅 为 106.7, 标准 差 为 0.03. 图 (c) 和 (d) 分 别 是 优化 后 管线 在 x86 和 ARM 上 获得 的 射电 源 的 赤 经 RA 值 与 原始 
管线 在 x86 上 获得 的 RA 值 的 差 值 Ara DAE. (c) 中 的 拟 合 结果 : 平均 值 为 -0.03, 振幅 为 245.8, 标准 差 为 1.0; (d) 中 的 
WAHR: 平均 值 为 0.07, 振幅 为 374.1, 标准 差 为 1.0. 图 (e) 和 (f) 分 别 是 来 优化 后 管线 在 x86 和 ARM 上 获得 的 射电 源 
的 赤 纬 DEC 值 与 原始 管线 在 x86 上 获得 的 射电 源 的 DEC 的 差 值 Apgc 分 布 图 .(e) 中 的 拟 合 结果 : x86 上 的 平均 值 为 -0.06， 
振幅 为 272.2, 标准 差 为 0.7; (f) 中 的 拟 合 结果 : 平均 值 为 0.03, 振幅 为 364.3, 标准 差 为 0.9. 


Figure 10 The statistical analysis results of cross match sources. The top two maps are the peak flux density from optimization 


p 


ly 


pipeline on x86 and ARM ratio to those from original pipeline on x86, respectively. The peak flux density gaussian fitted parameters 


are: mean is 1.0, amplitude is 116.9, standard deviation is 0.02 on x86, and mean is 1.0, amplitude is 106.7, standard deviation is 
0.03 on ARM. The middle two maps are right ascension (RA) from is from optimization pipeline on x86 and ARM subtracted those 
from the original pipeline on x86. The Ar, gaussian fitted parameters are: mean is -0.03, amplitude is 245.8, standard deviation is 
1.0 on x86, and mean is 0.07, amplitude is 374.1, standard deviation is 1.0 on ARM. The bottom two maps are declination (DEC) 
from is from optimization pipeline on x86 and ARM subtracted those from the original pipeline on In tel6132. The Apgc gaussian 
fitted parameters are: mean is -0.06, amplitude is 272.2, standard deviation is 0.7 on x86, and mean is 0.03, amplitude is 364.3, 
standard deviation is 0.9 on ARM. 
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Data processing of the Square Kilometre Array (SKA) is carried out in pipeline mode, and the execution 
efficiency of pipeline is an important factor to be considered in SKA data processing. Continuum imaging 
is one of the main observation modes of SKA and is a prerequisite for many other scientific works. In this 
paper, we take the imaging pipeline of SKA low-frequency precursor Murchison Widefield Array (MWA), 
as an example and optimize the parallel processing pipeline on the China SKA Regional Centre prototype 
(CSRC-P). Previous optimization schemes have focused on a few performance hotspots and lacked systematic 
optimization of the overall pipeline, resulting in a relatively poor overall speedup ratio. In this paper, we 
propose a global optimization scheme that combines C++ multi-threading, Python multi-processing, and 
Shell multi-tasking parallelism for pipelines using multiple programming languages and image datasets that 
can be processed independently, and verify the accuracy of the optimization results. Experiments show taht 
the optimized pipeline achieves an overall speedup of 2.7 and 2.4 times on the x86 and ARM nodes of CSRC-P, 
respectively, and the ARM compute nodes shows good adaptability to SKA applications. The optimization 
strategies and methods in this paper are also applicable to other SKA applications and will be useful for the 
scientific operation and future operation of the SKA precursor telescope. 
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